本文的重点是具有属性操作的图像检索问题。我们所提出的工作能够在维护其它属性时操纵查询图像的所需属性。例如,查询图像的套环属性可以从圆形到V-N颈改变,以从大型数据集中检索类似的图像。电子商务中的一个关键挑战是图像具有多个属性,用户希望操纵,并且重要的是估计每个属性的判别特征表示。所提出的fashionsearchnet-v2架构能够通过利用其弱监管的本地化模块来学习属性特定表示,该模块忽略了特征空间中属性的不相关特征,从而提高了相似度学习。网络与属性分类和三联排名损失的组合进行了联合培训,以估计本地表示。然后,基于所指的属性操纵,这些本地表示被合并成单个全局表示,其中可以通过距离度量来检索期望的图像。该方法还提供了可解释性,以帮助提供有关网络注意的额外信息。在几个数据集上执行的实验,该数据集在属性的数量方面表明FashionSearchNet-V2优于其他最先进的属性操作技术。与我们之前的工作(FashionsearchNet)不同,我们提出了几种改进了学习程序,并表明所提出的FashionsearchNet-V2可以概括为除了时尚之外的不同域。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
translated by 谷歌翻译
深度学习方法实现了对放射学图像进行分类的最新性能,但依赖于需要专家资源密集型注释的大型标签数据集。半监督学习和积极学习都可以用于减轻这种注释负担。但是,对于多标签医学图像分类,将半监督和主动学习方法的优势结合起来的工作有限。在这里,我们介绍了一种基于一致性的新型半监督证据活跃学习框架(CSEAL)。具体而言,我们利用基于证据和主观逻辑理论的预测不确定性来开发一种端到端的综合方法,该方法将基于一致性的半监督学习与基于不确定性的主动学习相结合。我们采用我们的方法来增强四种基于一致性的半监督学习方法:伪标记,虚拟对抗性培训,卑鄙的老师和不老师。对多标签胸部X射线分类任务的广泛评估表明,CSEAL在两个领先的半监督活跃学习基线方面取得了实质性改进。此外,班级分解的结果表明,我们的方法可以大大提高标记样品较少的稀有异常的准确性。
translated by 谷歌翻译
这项研究是有关阿拉伯历史文档的光学特征识别(OCR)的一系列研究的第二阶段,并研究了不同的建模程序如何与问题相互作用。第一项研究研究了变压器对我们定制的阿拉伯数据集的影响。首次研究的弊端之一是训练数据的规模,由于缺乏资源,我们的3000万张图像中仅15000张图像。另外,我们添加了一个图像增强层,时间和空间优化和后校正层,以帮助该模型预测正确的上下文。值得注意的是,我们提出了一种使用视觉变压器作为编码器的端到端文本识别方法,即BEIT和Vanilla Transformer作为解码器,消除了CNNs以进行特征提取并降低模型的复杂性。实验表明,我们的端到端模型优于卷积骨架。该模型的CER为4.46%。
translated by 谷歌翻译
滚动轴承是旋转机械的最关键组成部分。及时识别有缺陷的轴承可能会阻止整个机械系统的故障。由于机器零件的快速发展,机械状况监测场已进入大数据阶段。当使用大量数据时,手动特征提取方法的缺点是效率低下和不准确。近年来,诸如深度学习方法之类的数据驱动方法已成功用于机械智能故障检测。卷积神经网络(CNN)主要用于早期研究中,以检测和识别轴承断层。但是,CNN模型遭受了难以管理故障时间信息的缺点,这导致缺乏分类结果。在这项研究中,使用最先进的视觉变压器(VIT)对轴承缺陷进行了分类。使用Case Western Reserve University(CWRU)实验室实验数据对轴承缺陷进行了分类。该研究还考虑了除正常轴承条件外,在0负载情况下的13种不同类型的缺陷。使用短时傅立叶变换(STFT),将振动信号转换为2D时频图像。 2D时频图像用作VIT的输入参数。该模型的总体准确度为98.8%。
translated by 谷歌翻译
每天,越来越多的人正在转向在线学习,这改变了我们的传统课堂方法。录音讲座一直是在线教育者的正常任务,并且在疫情中最近变得更加重要,因为实际的课程仍在推迟在几个国家。录制讲座时,由于其与计算机接口的便携性和能力,图形平板电脑是一个很大的白板替代白板。然而,这种图形平板电脑对于大多数教师来说太昂贵了。在本文中,我们向教师和教育工作者提出了一种基于计算机视觉的图形平板电脑,这主要以与图形平板电脑相同的方式,而只是需要笔,纸张和笔记本电脑的网络摄像头。我们称之为“自己为自己的图形标签”或“DIY图形选项卡”。我们的系统在由摄像机获取的纸上收到一系列人员写作作为输入的纸张,并输出包含纸张写入内容的屏幕。由于人的手,由于人的手,随机运动,纸张,照明条件不佳,由于视角,透视失真等诸如遮挡等许多障碍物而言。一种管道通过我们的系统,在生成适当的输出之前,进行实例分段和预处理。我们还从教师和学生进行了用户体验评估,并在本文中审查了他们的回复。
translated by 谷歌翻译
在本文中,我们研究了一些常用的设置对(a)预处理面部图像的影响,以及(b)分类和训练,在动作单位(au)检测性能和复杂性上。我们在我们的调查中使用了一个大型数据集,该集合由狂野收集的〜55k视频组成,用于观看商业广告的参与者。预处理设置包括将面部缩放到固定分辨率,将颜色信息(RGB变为灰度),对齐面,以及裁剪AU区域,而分类和培训设置包括类别类型(多标签与二进制)和用于训练模型的数据量。据我们所知,没有任何工作已经调查了这些环境对AU检测的影响。在我们的分析中,我们使用CNNS作为我们的基线分类模型。
translated by 谷歌翻译
在本文中,我们探讨了一些常用的卷积神经网络(CNNS),训练设置和训练集结构对动作单元(AU)检测的影响。具体而言,我们首先比较Au检测中的10个不同的浅层CNN。其次,我们调查不同训练设置的方式(即居中/归一化输入,使用不同的增强严重性和平衡数据)影响Au检测中的性能。第三,我们探讨了增加训练中标记对象和帧的数量的效果,在训练中设置了Au检测性能。这些比较为研究界提供了关于在AU检测中选择不同CNN和培训设置的有用提示。在我们的分析中,我们使用大规模的自然主义数据集,由狂野捕获的〜55k视频组成。据我们所知,没有工作已经调查了这种环境对大型AU数据集的影响。
translated by 谷歌翻译
Variational inference uses optimization, rather than integration, to approximate the marginal likelihood, and thereby the posterior, in a Bayesian model. Thanks to advances in computational scalability made in the last decade, variational inference is now the preferred choice for many high-dimensional models and large datasets. This tutorial introduces variational inference from the parametric perspective that dominates these recent developments, in contrast to the mean-field perspective commonly found in other introductory texts.
translated by 谷歌翻译